iT邦幫忙

2023 iThome 鐵人賽

DAY 15
0
AI & Data

利用 Databricks 學習 ML/LLM 開發系列 第 15

Day15 - Databricks Workflows 操作

  • 分享至 

  • xImage
  •  

Databricks Jobs 的建立與執行

首先,先注意底下幾個限制:

  • 一個 workspace 只能有 1000 個同時執行的任務,如果超過這個數量,就會回傳 429 Too Many Requests 的錯誤訊息。
  • 一個 workspace 一個小時內只能建立 10000 個 jobs,這個限制也會影響到透過 REST API 或是 notebook workflows 建立的 jobs。

Create and run jobs using the CLI, API, or notebooks

  • 有關透過 Notebooks 建立 Jobs,請參考前一篇的範例操作。
  • 有關透過 Databricks CLI 操作 Jobs,請參考這篇文件

或是以底下這個範例來說明:

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "i3.xlarge",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Task type options

Notebook, JAR, Spark Submit, Python script, Delta Live Tables Pipeline, Python Wheel, SQL, dbt, Run Job

https://ithelp.ithome.com.tw/upload/images/20230928/20091643mpatttmf7P.png

Pass parameters to a Databricks job task

各種 Job 也都支援傳遞參數,請參考這裡的說明

Run a job on a schedule

Run a continuous job

https://ithelp.ithome.com.tw/upload/images/20230928/20091643e7axcTR25f.png

Run a job when new files arrive

參考這篇文件
前提是 workspace 必須支援 Unity Catalog,且必須有一個 Delta table 作為目標資料表。

Reference:


上一篇
Day14 - Databricks Workflows 簡介
下一篇
Day16 - Databricks Workflows 進階操作
系列文
利用 Databricks 學習 ML/LLM 開發30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言